Исследование рынка общепита в Москве

Описание проекта

Инвесторы из фонда «Shut Up and Take My Money» решили попробовать себя в новой области и открыть заведение общественного питания в Москве. Заказчики ещё не знают, что это будет за место: кафе, ресторан, пиццерия, паб или бар, — и какими будут расположение, меню и цены.

Для начала они просят вас — аналитика — подготовить исследование рынка Москвы, найти интересные особенности и презентовать полученные результаты, которые в будущем помогут в выборе подходящего инвесторам места.

Вам доступен датасет с заведениями общественного питания Москвы, составленный на лето 2022 года. Информация размещённая в сервисе Яндекс Бизнес, могла быть добавлена пользователями или найдена в общедоступных источниках. Она носит исключительно справочный характер.

Загрузите данные и изучите общую информацию

Изучите общую информацию о датасете. Сколько заведений представлено? Что можно сказать о каждом столбце? Значения какого типа они хранят?

Всего в таблице 8406 записей о заведениях. В столбцах name, category, address, district, hours, price и avg_bill представлена текстовая информация, в остальных - числовая. Типы данных корректны, корректировать их не требуется.

Предобработка данных

Изучите, есть ли дубликаты в данных. Поищите пропуски: встречаются ли они, в каких столбцах? Можно ли их обработать или оставить как есть?

Выполните предобработку данных:

• Создайте столбец street с названиями улиц из столбца с адресом.

• Создайте столбец is_24/7 с обозначением, что заведение работает ежедневно и круглосуточно (24/7):

o логическое значение True — если заведение работает ежедневно и круглосуточно;

o логическое значение False — в противоположном случае.

Дубликаты

Полные дубликаты в таблице отсутствуют.

Также проверим дубликаты по названию и адресу заведения на случай если есть незначительные расхождения по другим столбцам.

Дубликатов заведений нет.

Также проверим некоторые столбцы на скрытые дубликаты. Посмотрим, сколько уникальных значений по каждому столбцу.

Проверим столбцы category, district и price. В остальных объективно слишком много значений, чтобы провести такую проверку.

Все указанные столбцы не содержат скрытых дубликатов.

Пропуски

Опираясь на информацию о таблице из пункта 1, пропуски есть в столбцах hours, price, avg_bill, middle_avg_bill, middle_coffee_cup и seats.

В столбце hours пропущено около 600 значений, меньше 10% от общего количества записей. Пропуски можно было бы заполнить медианными значения по категории заведения и району нахождения, но данные в этом столбце не числовые и провести такое сопоставление будет достаточно трудоемко. Исключать заведения с пропусками тоже не хотелось бы, это повлияет на статистику. Предлагаю заполнить пропуски плейсхолдером "Не указано".

В столбцах price и avg_bill пропущено больше половины значений, заполнять их средними или медианными значениями нецелесообразно, поскольку полностью размоет статистику по заведениям. Предлагаю, как и в столбце hours, заполнить пропуски плейсхолдером "Не указано".

Столбцы middle_avg_bill и middle_coffee_cup являются производными от столбца avg_bill, и их тоже было бы неплохо заполнить плейсхолдерами, но так как это столбцы с числовыми значениями, таким плейсхолдером предлагаю использовать значение "-1".

В столбце seats тоже пропущено много значений и заполнение средними или медианными значениями будет плохо сказываться на статистике. Предлагаю также использовать плейсхолдер "-1".

Дополнительные столбцы

Столбцы заполнены без пропусков.

Анализ данных

Категории заведений

В целом, хорошо выделяются три категории заведений, кафе, рестораны и кофейни. Они с хорошим отрывом превосходят остальные категории по количеству и, соответвенно, доле заведений. Вместе они занимают почти 70% рассматриваемых заведений.

Посадочные места

По общему количеству мест рестораны резко выходят на первое место, у них на четверть больше посадочных мест, чем в кафе и в полтора раза больше, чем в кофейнях.

Доминация ресторанов по общему количеству мест объяснима, учитывая большое количество самих ресторанов, у них к тому же самое высокое медианное значение мест на заведение.

Близкое к ресторанам медианное значение мест показывают бары, кофейни и столовые. Остальные типы заведений имеют заметно меньшее количество мест.

Сетевые заведения

Немногим больше трети всех заведений - сетевые.

Посмотрим на соотношения в разных категориях.

Самыми сетевыми категориями являются булочные (сетевых в полтора раза больше частных), кофейни и пиццерии (в этих категориях сетевых и частных заведений почти попровну).

Самые не сетевые категории - бары и столовые: количество чатсных заведений почти в 4 раза превышает количество сетевых.

Соотношение сетевых и не сетевых заведений по категориям хорошо показывает следующий график.

Популярные сети

Среди сетей самая распространённая - Шоколадница, она с большим отрывом занимает первое место со 120 заведениями. За ней идёт довольно плотная пятёрка Домино'с Пицца, Додо пицца, One Price Coffee, Яндекс Лавка и Cofix. Далее количество заведений по сетям плавно снижается. На 15 месте сеть Му-Му с 27 заведениями.

В основном сети придерживаются одного формата заведений, но есть исключения - сети Хинкальная и Му-Му по разному позиционируют свои заведения, возможно, в зависимости от их расположения.

Заведения по районам

Сразу заметно, что в Центральном округе заведений более чем в два раза больше, чем в остальных районах. Меньше всего в Северо-Западном районе.

Что общее для всех - заметные доли среди других категорий занимают рестораны, кафе и кофейни. Дополнительно к ним в Центральном райцоне выделяются бары.

Средние рейтинги

Разброс в среднем рейтинге среди заведений очень мал, у всех категорий средний рейтинг выше 4. Самый плохой - у заведений быстрого питания, самый хороший - у баров. Это может быть связано с тем, что в заведениях быстрого питания упор делается на скорости подачи еды, и не на качестве обслуживания, а в барах наоборот, посетители после весёлого вечера оставляют хорошие отзывы.

Рейтинги по районам хорошо показывают отрыв Центрального района, отзывы посетителей здесь заметно выше. Самые малооценённый - Юго-восточный район.

Дополнительно отмечу, что рейтинг ЦАО может быть выше из-за большой доли баров (самая оценённая катеория) и малой доли заведений быстрого питания (самая не любимая категория).

Заведения на карте

Данные с карты подтверждают данные графиков - заведения сильно "жмутся" к центру города - кластеры там самые большие. Также заметно, что кластеры заведений в районах соответствуют крупным жилым массивам.

Данные по улицам

На 15 самых популярных улицах чаще всего встречаются кафе, рестораны и кофейни, а вот булочных и столовых почти нет.

На улицах, где находится только одно заведение ситуация похожая - больше всего кафе, ресторанов и кофеен. Также мало булочных. Зато чаще по сравнению с популярными улицами попадаются столовые и бары.

Среди этих заведений немного ниже доля сетевых, чем в общем по таблице.

Также эти заведения тяготеют к районам, где много мелких улочек, что в целом объясняет, почему они на таких улицах могут быть единственными.

Средний чек

В Центральном и Западном округах медианный чек заметно выше, чем в остальных районах. Настолько, что кажется, будто все остальные районы располагаются плотной группой и цены в них похожие. Но всё равно, в Юго-восточном, Южном и Северо-восточном округах поесть можно заметно дешевле, чем в оставльных.

Данные на карте это подтверждают, подсвечивая три заметные ценовые группы.

Круглосуточные заведения

В целом, круглосуточных заведений немного, меньше 10%.

Среди круглосуточных заведений ожидаемо больше всего кафе и довольно много ресторанов, эти группы хорошо представлены в данных и ожидаемо разнообразны, но остальное распределение не так типично. На втором месте по количеству круглосуточных заведений занимают заведения быстрого питания. Остальные категории здесь представлены слабее. Очень мало круглосуточных столовых.

Среди круглосуточных заведений довольно много сетевых, больше, чем в общем по таблице.

Распределение по карте круглосуточных заведений похоже на распределение в общем по таблице - их больше в центре и меньше на северо-западе.

Общий вывод

Сама по себе Москва - это довольно конкурентный рынок общепита. Большое количество заведений разнообразных видов с высокими средними рейтингами настраивают посетителей на высокий уровень ожиданий.

Можно выделить один округ с самой высокой конкуренцией среди заведений - Центральный: больше всего заведений, разнообразие их видов, самые высокие рейтинги, и при этом высокий средний чек. Открытие заведения в таком районе - большой риск.

Но есть другой район с тем же уровнем цен, а значит, с потенциально высокой прибылью - Западный округ. Но по сравнению с Центральным округом количество заведений здесь заметно меньше, как и их средний рейтинг. Открытие заведения в таком районе было бы менее рискованно.

Другой вопрос - категория заведения. На мой взгляд, хорошим спросом могут пользоваться заведения из тех категорий, которые сейчас представлены в основном сетевыми местами: булочные, пиццерии и кофейни. При этом, стоит отметить что кофеен в принципе довольно много, но оригинальное и отличающееся от сетевого место может привлечь посетителей даже в таких условиях.

Детализируем исследование: открытие кофейни

Основателям фонда «Shut Up and Take My Money» не даёт покоя успех сериала «Друзья». Их мечта — открыть такую же крутую и доступную, как «Central Perk», кофейню в Москве. Будем считать, что заказчики не боятся конкуренции в этой сфере, ведь кофеен в больших городах уже достаточно. Попробуем определить, осуществима ли мечта клиентов.

О кофейнях в общем

Также как и остальные заведения, кофейни тяготеют к центру города. Довольно много кофеен на севере и юго-западе. На остальных направлениях, даже в крупных жилых районах кофеен сильно меньше.

Доля круглосуточных кофеен заметно ниже, чем в целом по заведениям таблицы. Это можно объяснить тем, что посетителям обычно хочется взбодриться с утра или днём, думаю, что ночью таких желающих не так много. Давайте посмотрим, где находятся круглосуточные кофейни.

Подавляющее большинство таких кофеен находится в центре,в спальных районах их очень мало. В целом, такие заведния чаще находятся рядом с крупными улицами, на вокзалах и других транспортных развязках.

Рейтинги кофеен

В целом, средние рейтинги кофеен по районам довольно ровные, разброс между ними очень маленький.

На карте лучше заметна разница между рейтингами по районам. Есть как заметные лидеры, так и аутсайдеры, но важно отметить - самый низкий и самый высокий средние рейтинги отличаются всего на 0,14, что делает их практически равными.

Стоимость чашки каппучино

По цене районы поделились ровно на 3 группы: дорогие, средние и по-дешевле. Самые дорогие в целом по заведениям округа - Центральный и Западные, не самые дорогие по цене чашки каппучино. Их немного обгоняет Юго-западный округ. Средними можно считать три Северных округа, а Южный, Юго-Восточный и Восточный немного по-дешевле.

При этом, разница между максимальным и минимальным значениями медианной стоимости чашки каппучино довольно значимая, в полтора раза.

Кофейные выводы

Как мне кажется, мечта об открытии кофейни вполне осуществима. В Москве всё ещё есть районы, в которых не такая жёсткая конкуренция среди кофеен, а также есть возможность предложить заведение с качеством выше, чем у уже существующих.

Потенциально перспективными могут быть Южный и Юго-Восточный округа. В них заметно меньше кофеен, посетители не избалованы качеством, а цена чашки кофе хоть и не заоблачная, но и не самая низкая. Для выстраивания конкурентной работы самое то.